| car.brand | car.model | manufacturing.year | car.full.name | strengths | weaknesses | rating | full.description | GPT.2.summarization | engine_type | horsepower | torque | drive_system | transmission | length | height | overall.width.with.mirrors | overall.width.without.mirrors | curb.weight |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| chevrolet | chevrolet silverado-2500hd | 1500 | chevrolet silverado-2500hd 1500 | ['Stout power and quick acceleration'... | ['Dated interior design', 'High, broa... | Full-size trucks like the Chevrolet S... | Full-size trucks like the Chevrolet S... | V8 cylinder | 401 hp @ 5,200 rpm | 464 lb-ft @ 4,000 rpm | rear wheel drive | 6-speed shiftable automatic | 250.0 in. | 79.8 in. | 81.9 in. | 6,533 lbs. | ||
| gmc | gmc sierra-1500 | 1500 | gmc sierra-1500 1500 | ['Several available powertrains for t... | ['Rides rougher than primary rivals',... | The GMC Sierra 1500 had a rough star... | The GMC Sierra 1500 had a rough star... | Inline 4 cylinder | 310 hp @ 5,600 rpm | 430 lb-ft @ 3,000 rpm | rear wheel drive | 8-speed shiftable automatic | 231.9 in. | 75.5 in. | 81.2 in. | 4,750 lbs. | ||
| chevrolet | chevrolet silverado-1500 | 1500 | chevrolet silverado-1500 1500 | ['Available powertrains cover a wide ... | ['Most versions ride a little rougher... | Full-size pickup trucks are the most... | Full-size pickup trucks are the most... | Inline 4 cylinder | 310 hp @ 5,600 rpm | 430 lb-ft @ 3,000 rpm | rear wheel drive | 8-speed shiftable automatic | 231.9 in. | 75.5 in. | 81.2 in. | 4,740 lbs. | ||
| chevrolet | chevrolet corvette | 1950 | chevrolet corvette 1950 | ['Impressive power and acceleration',... | ['Not the easiest car to get in and o... | Since the Chevrolet Corvette's debut... | Since the Chevrolet Corvette's debut... | V8 cylinder | 490 hp @ 6,450 rpm | 465 lb-ft @ 5,150 rpm | rear wheel drive | 8-speed automated manual | 182.3 in. | 48.6 in. | 76.1 in. | 3,535 lbs. |
Analiza rynku samochodowego
1 Cel projektu
Analiza rynku samochodowego w celu wyłonienia najlepszych segmentów na podstawie parametrów technicznych oraz ocen eksperckich.
1.1 Problematyka
Poszukiwanie ciekawych, praktycznych lub nawet decyzyjnych dla konsumenta wniosków oraz wyłanianie liderów rynku dzięki analizie dostepnęgo zbioru danych.
2 Dane
Mamy zbiór około 3500 wierszy. Zbiór danych pochodzi z amerykańskiego serwisu internetowego zajmującego sie handlem nowych i używanych samochodów. Można by to porównać do polskiego Otomoto, tyle, że tutaj mieliśmy recenzje ekspertów na temat tych samochodów. W kolumnach tekstowych mamy cechy takie jak:
Marka i model samochodu
Krótkie recenzje ekspertów na temat samochodu
Rodzaj skrzyni biegów
Rodzaj silnika
Rodzaj układu napędowego
Mocne i słabe strony samochodu
Natomiast w kolumnach numerycznych mamy:
Rok produkcji
Liczbę koni mechanicznych
Moment obrotowy w NM
Ocenę nadaną przez eksperta od 1.0 do 5.0
3 wymiary samochodu
Wage samochodu
Pamietajmy, że analiza w dużej mierze opiera sie na subiektywnych odczuciach ekspertów, więc trzeba podchodzić do wniosków z lekkim dystansem.
3 Pytania i Hipotezy
3.1 Najczęściej występujące problemy w samochodach?
Hipoteza: Najwięcej problemów jest ze złożoną elektroniką.
3.2 Jakie marki są najbardziej lubiane?
Hipoteza: Powielając panujące przekonanie o jakości japońskich marek: najbardziej lubiane są japońskie marki.
3.3 Które samochody są bardziej lubiane - stare, czy nowe?
Hipoteza: Bardziej lubiane są stare samochody.
3.4 Czy moc samochodu ma wpływ na poprawe oceny?
Hipoteza: Moc samochodu nie ma wpływu na poprawe oceny.
4 Czyszczenie danych
Niewyczyszczony zbiór danych:
4.1 Usunięcie wierszy bez ocen
Z około 3463 wierszy zostaje nam 3044. Wiersze z pustymi silnymi i słabymi stronami zostają, bo te możemy wywnioskować dokonując analizy recenzji ekspertów.
4.2 Czyszczenie horsepower i torque
Usuwamy niepotrzebne dopiski na jakich obrotach sa osiągane maksymalne momenty obrotowe i konie mechaniczne oraz zamieniamy rodzaj kolumn na numeryczne.
| ... | horsepower | torque | ... |
|---|---|---|---|
| ... | 401 |
464 |
... |
| ... | 445 |
910 |
... |
| ... | 310 |
365 |
... |
4.3 Konwersja jednostek
Zamiana wartości z cali i stóp na system metryczny w kolumnach gdzie mamy podane wymiary samochodów i ustawienie rodzaju kolumn na numeryczne.
| ... | length | height | overall.width.without.mirrors | curb.weight | ... |
|---|---|---|---|---|---|
| ... | 250.0 in. | 79.8 in. | 81.9 in. | 6,533 lbs. | ... |
| ... | 231.9 in. | 75.5 in. | 81.2 in. | 4,750 lbs. | ... |
| ... | 231.9 in. | 75.5 in. | 81.2 in. | 4,740 lbs. | ... |
\(\rightarrow\)
| ... | length(m) | height(m) | width(m) | weight(kg) | ... |
|---|---|---|---|---|---|
| ... | 4.79 | 1.62 | 1.70 | 1436.98 | ... |
| ... | 4.69 | 1.87 | 2.02 | 1740.69 | ... |
| ... | 4.60 | 1.43 | 1.69 | 1342.63 | ... |
4.4 Definicja zmiennej Power
Z uwagi na fakt, że liczba koni mechanicznych nie daje nam pełnego obrazu o rzeczywistej “mocy” samochodu, wprowadzamy kolumnę power oznaczajacą moc
\[ \text{power} = \frac{\text{horsepower}}{\text{weight (kg)}} \cdot 100 \]
Kolumna power odzwierciedla stosunek mocy do masy samochodu dając nam ogólny współczynnik (power-to-weight ratio (Gillespie 1992)) dający wyobrażenie o tym jak szybki będzie samochód w rzeczywistości. Pozwala to na obiektywna ocene dynamiki samochodów z różnych segmentów (Bauer 2014).
| engine_type | horsepower | torque | power |
|---|---|---|---|
| Inline 4 cylinder | 100 | 133 | 6.96 |
| V8 cylinder | 210 | 300 | 12.06 |
| Flat 4 cylinder | 130 | 137 | 9.68 |
| V8 cylinder | 210 | 300 | 8.58 |
| Inline 4 cylinder | 134 | 133 | 9.06 |
| Inline 4 cylinder | 130 | 121 | 11.24 |
5 Jakie są najczęściej występujące problemy w samochodach?
5.1 Hipoteza: Najwięcej problemów jest ze złożoną elektroniką.
W celu znalezienia odpowiedzi na to pytanie posłużymy sie kolumną weaknesses, w której mamy gotowe wypisane słabości różnych pojazdów.
Tworzymy liste pojedyńczych słów, odfiltrujemy niepotrzebne spójniki, wypełniacze oraz słowa nie wnoszące nic w kontekście wystepujących problemów. Dzielimy słowa na 2 przedziały ocen z jakimi były związane aby mieć pojęcie co w dużym stopniu zaważyło na ocenie, a co było tylko niedociągnieciem.
5.2 Błędy krytyczne (ocena <3.0)
Najczęstszymi błedami krytycznymi, które znacznie wpłynęły na ocene sa problemy z silnikiem. Zatem warto uważać na wadliwe modele i dokładnie sprawdzać panujące opinie o jednostkach w samochodzie, który chcemy kupić. Drugą ciekawą wadą okazuje się być po prostu cena, czyli jak sie okazuję zdarzają sie modele przepłacone na tyle, że zaniża to całą ocene aż poniżej 3 gwiazdek.
5.3 Błędy mniej znaczące (ocena 3.0+)
Przy obu problemach ukazuje się dość logiczny rezultat: wnętrze, czyli bardzo szeroki zakres: różnego rodzaje plastiki, wyposażenie typu elektryczne szyby, klimatyzacja itd. Narzekanie ekspertów na te rzeczy wydaje się oczywiste bo zawsze można przyczepić sie do tego typu niedociągnięć, szczególnie, że to właśnie wnętrze najbardziej rzuca sie w oczy przy użytkowaniu samochodu. Na drugim miejscu jest słowo “ride”, które w kontekście wypowiedzi negatywnych oznacza wszelakie problemy z uczuciami podczas jazdy typu niewystrojone/za twarde/za miękkie zawieszenie, słabe prowadzenie pojazdu lub znowu problemy wnętrza rzutujące na odczucia z jazdy czyli np. bardzo trudne do obsługi kontrolki rozpraszające kierowce.
Warto zaznaczyć, że obie chmury słów zostaly przeskalowane tak aby miały ten sam rozmiar na potrzeby czytelności. W rzeczywistości grupa wysokich ocen jest znacznie liczniejsza jak widać na wycinku poniższej tabeli(krytyczne błędy zdarzają sie sporadycznie).
| nr | Wada (Krytyczna) | Wystąpienia | Wada (Drobna) | Wystąpienia |
|---|---|---|---|---|
| 1 | engine | 6 | interior | 604 |
| 2 | price | 5 | ride | 371 |
| 3 | base | 4 | engine | 355 |
| 4 | expensive | 4 | space | 308 |
| 5 | hydrogen | 4 | rivals | 293 |
| 6 | interior | 4 | competitors | 265 |
| 7 | space | 4 | quality | 245 |
| 8 | stations | 4 | fuel | 243 |
| 9 | steering | 4 | acceleration | 233 |
| 10 | acceleration | 3 | economy | 231 |
| 11 | cabin | 3 | steering | 222 |
5.4 Wnioski:
Hipoteza błędna. Pomimo wielu róznych problemów nie ma żadnych wzmianek konkretnie o problemach z elektroniką i mimo, że wnętrze może zawierać właśnie takie problemy, to nie możemy jednozacznie stwierdzić, że własnie o to chodzi. Zatem pozostaje nam fakt, że najwięcej krytycznych problemów generują wadliwe silniki, a najwięcej drobnych problemów jest z wnętrzem samochodów. podsumowanie
6 Jakie marki są najbardziej niezawodne?
6.1 Hipoteza: Powielając panujące przekonanie o jakości japońskich marek: najbardziej niezawodne są japońskie marki.
Przyjmujemy założenie: lubiany = niezawodny co oczywiście nie zawsze będzie prawdą, ale sporo upraszcza
Na osi poziomej mamy uśrednione wartości jakie przyjmuje rating (1.0 - 5.0), tutaj mamy też 6, wyłącznie aby zmieścić tekst. Na osi pionowej marki samochodów. Wartości zmiennych na obu osiach są wyliczanie niezależnie od innych lat dla każdego roku. Aktualny lider w danym roku wyróżniony jest złotym kolorem i koroną.
W skrócie: im dłuższa kreseczka, tym wyższa ocena. Na dole widać jak wysoka dokładnie.
Widzimy jak najlepsze 5 marek konkurowalo o najlepsze oceny na przestrzeni lat. Na osi X mamy lata produkcji. Na osi Y sume punktów dla danego roku.
\[ punkty = liczba\;marek\; - \;ranking\; +1 \]
6.2 Punkty?
Miara punktów zwyczajnie odzwierciedla odległość marki od pierwszego miejsca w rankingu. Kluczowe rzeczy:
Im wyżej w rankingu - tym więcej punktów.
Liczba punktów jest przyznawana każdej marce według wzoru co rok.
Dzięki takiej mierze eliminujemy problemy ze średnią, która zaciera informacje o tym, czy dana marka np. miała kilka dobrych lat i tylko to podnosi jej średnią co daje jej możliwość konkurencji z bardziej konsekwentymi markami, takimi które trzymają poziom cały czas. Dzięki tym punktom możemy na statycznym wykresie zobaczyć “przebieg wyścigu” i widzimy kto z największa konswekwencją zbliżał sie do idealnych wyników.
6.3 Wnioski:
Hipoteza potwierdzona - wygrywa japońska Mazda i w czołówce mamy jeszcze dwóch japończyków (Acura i Toyota). podsumowanie
7 Które samochody są bardziej lubiane - stare, czy nowe?
7.1 Hipoteza: Bardziej lubiane są stare samochody.
Żeby odpowiedzieć na to pytanie zwyczajnie liczymy średnie dla lat 1990-2021. Przyjmujemy założenie, że stare samochody kończą sie po 2010 roku, ale oczywiście każdy różnie zdefiniuje stary samochod. Stawiamy kreskę na końcu 2010 roku aby oddzielić dwie ery. Liczymy średnią dla lat z obu ram czasowych i sprawdzamy która wygrywa.
Widzimy ewidentnie zwycięzce: stare samochody. Nawet w najgorszym momencie stare samochody były bardziej lubiane od nowych. Wynika to prawdopodobnie z wielu komplikacji jakie wprowadziła nowoczesna elektronika w samochodach, która zabiła prawdziwą frajdę z jazdy. Starsze samochody sa prostsze w budowie i mniej skupione na skomplikowanych systemach podatnych na problemy.
7.2 Wnioski:
Hipoteza prawdziwa. Starsze samochody sa bardziej lubiane. podsumowanie
8 Czy moc samochodu ma wpływ na poprawe oceny?
8.1 Hipoteza: Moc samochodu nie ma wpływu na poprawe oceny.
W celu sprawdzenia hipotezy weźmiemy kolumny rating oraz power, która wcześniej sobie przygotowaliśmy. Szukamy zależności pomiędzy tymi dwoma zmiennymi, więc użyjemy scatterplota i spróbujemy na nim dopasowania liniowego, aby wyłonić jakieś trendy. Dopasowanie liniowe zwraca wartości rzeczywiste z przedziału <-1,1> i wygląda to tak:
Jeżeli ujemne -> wraz ze wzrostem mocy ocena maleje. (korelacja ujemna)
Jeżeli 0 -> brak zależności czyli moc nie ma wpływu na ocenę (to mówi hipoteza).
Jeżeli dodatnie -> moc wpływa na wzrost oceny. (korelacja dodatnia)
Współczynnik korelacji jest dodatni, czyli większa moc rzeczywiście wpływa pozytywnie na ocenę samochodu, ale jak bardzo? Wartość 0.32 w tym kontekście to bardzo solidna zależność, zważając, że na ocene wpływa bardzo wiele czynników oprócz samej mocy. Widzimy więc, że moc jest dość ważnym czynnikem wpływającym na ocenę.
8.2 Jedno ale
Zwyczajne dopasowanie liniowe pokazuje pewien trend, natomiast przedział mocy od ekonomicznych samochodzików miejskich aż do super szybkich samochodów sportowych jest bardzo szeroki i zacierają się pewne wnioski.
Dlatego użyjemy podziału kwantylowego - dzielimy oceny na 5 równych przedziałów, każdy po około 600 ocen. Dzięki temu nie patrzymy na wszystko jako jedną całość, a na różne grupy samochodów do różnych zastosowań i jak to sie ma do korelacji mocy z oceną. Tym razem używamy dopasowania LOESS(Locally Estimated Scatterplot Smoothing), które pokaże nam płynną i lokalną linie trendu, a nie taką dopasowaną do wszystkich ocen na raz.
8.3 Punkty odniesienia
Zanim zobaczymy drugi wykres, zobaczmy kilka samochodów o bardzo różnych stosunkach mocy do masy, żeby wiedzieć jakie wartości reprezentują jaką kategorię samochodów.